AI资讯新闻榜单内容搜索-Transforme

谷歌：我手握最多诺奖得主，为啥就留不住他们？

最近，谷歌连失两员大将。短短三天内，先是 Transformer 论文共同作者 Noam Shazeer 离开谷歌加入 OpenAI；紧接着诺贝尔奖得主、AlphaFold 负责人 John Jumper 转投 Anthropic 麾下。

来自主题: AI资讯

8180 点击 2026-06-21 10:34

刚刚，OpenAI把Transformer作者挖走了

AI 圈又迎来一次标志性的人才流动。就在刚刚，Transformer 论文作者之一，知名 AI 研究员 Noam Shazeer 在社交媒体发文宣布，他将正式加入 OpenAI。

来自主题: AI资讯

10243 点击 2026-06-18 10:40

当线性注意力学会「写入前思考」：并行化的多步记忆写入

Transformer 依托强大的建模能力和 Scaling 效率在推荐领域被广泛应用于超长序列建模和生成式推荐等方向，

来自主题: AI技术研报

6177 点击 2026-06-10 14:43

阿里RTPurboV2：原生Transformer再次崛起，百步训练实现10倍稀疏注意

“Full Attention 正在被遗忘”

来自主题: AI技术研报

7901 点击 2026-06-08 15:08

一个8×8矩阵，让大模型「记住」长对话：Mind Lab联合NTU、复旦推出δ-mem，参数仅0.12%

不扩上下文窗口、不换骨干架构、不做全参数微调 —— 只需要一个 8×8 的在线状态矩阵，就能让冻结的 Transformer 拥有真正的长期记忆。

来自主题: AI技术研报

9869 点击 2026-06-08 14:50

写代码不用编辑器！Transformer八子之一：单卡5090复刻Transformer所有研究！AI耗尽万亿Token学概念，正在用“外星人逻辑”泛化

“完全抛弃传统的代码编辑器，我直接告诉 AI 去修改代码。”

来自主题: AI资讯

7148 点击 2026-06-05 09:53

ICML 2026 | 计算所联合ETH研究者提出WorldCache，视频世界模型近似无损提速3.7 倍

如果说扩散世界模型的瓶颈，是每一步去噪都要把同一个大 Transformer 再跑一遍，那么 WorldCache 的思路就是：不要再把所有 Token、所有时间步都当成同一件事。这篇工作把 “哪些内容适合缓存”和“哪些时刻必须重算” 拆开处理，在不重新训练模型、几乎不增加额外显存的前提下，把缓存真正做成了一套更贴合世界模型结构的推理策略。

来自主题: AI技术研报

7224 点击 2026-06-03 10:02

统治AI十年的Transformer，要被亲爹亲手砸碎？

80分钟的拳击式辩论！Transformer联合发明人亲自下场为自己的作品辩护，对面三位挑战者直指五大死穴。这是AI架构十年来最硬的一次正面交锋。统治AI黄金十年的架构，地基是不是已经松了？

来自主题: AI资讯

5607 点击 2026-05-27 16:30

VeRL-Omni：面向扩散和全模态生成模型的通用RL后训练框架

VeRL-Omni 是一个面向多模态生成模型的通用 RL 后训练框架，由 VeRL-Omni 团队在 verl 与 vllm-omni 之上构建。覆盖扩散 transformer（Qwen-Image）、混合 AR-DiT（Qwen-Omni）、统一理解 + 生成（BAGEL、HunyuanImage-3.0）等架构。

来自主题: AI技术研报

7659 点击 2026-05-26 10:26

还在手写CUDA内核？CODA来了！LLM和新手也能让Transformer跑出光速

5 月 22 日，Tri Dao 在社交媒体上转发了 Han Guo 的一条推文。他还写道：「经过一些数学重写，结果发现 Transformer 的所有内容都是一系列 GEMM + epilogue（矩阵乘法加尾声）。给定一些优化的原语，LLM（以及新手）就可以为所有 Transformer 操作编写光速内核！」

来自主题: AI技术研报

8757 点击 2026-05-25 10:13